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摘 要 : [目的 /意义 ]ChatGPT 是 当前 最 热门 的 人 工 智 能 技术 之 一 ， 在 多 个 领域 展示 了 其 应 用 
潜力 。 数 字 人 文 与 人 工 智能 、 大 数据 等 新 兴 技 术 密 切 相 关 ，ChatGPT 的 出 现 有 望 赋 能 数字 
人 文 ， 为 数字 人 文 领域 的 未 来 发 展 提供 新 的 思路 和 方向 。 [方法 /过 程 ] 通 过 分 析 ChatGPT 的 
涵义 、 支 撑 技 术 ， 对 比 传统 数字 人 文 工 具 ， 总 结 ChatGPT 在 数字 人 文 领域 中 的 应 用 前 景 以 
及 当前 存在 的 现实 问题 。[ 结 果 / 结 论 ]ChatGPT 在 数字 人 文中 的 前 景 广阔 ， 可 作为 智能 研究 
助理 、 实 现 全 量 文本 分 析 、 碎 片 知识 整合 、 多 语种 翻译 等 应 用 ， 但 语料库 数据 丰富 度 和 动 

= 态 更 新 能 力 、 生 成 内 容 的 算法 伦理 和 知识 版 权 问 题 、 人 文 知 识 的 准确 性 和 知识 创新 能 力 、 

多 语种 输出 在 结果 精准 性 上 的 差异 等 现实 问题 有 待 进一步 解决 。 
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1 引言 


em 近年 来 ， 人 工 智 能 技术 鞍 勃 发 展 ， 在 诸多 领域 的 应 用 均 取 得 了 突破 性 进展 。 为 满足 用 
© 户 对 于 人 工 智能 产品 更 加 综合 化 、 多 样 化 、 个 性 化 和 智能 化 的 新 需求 ，2022 年 12 月 1 日 ， 
e 美国 人 工 智能 公司 Open AI 公布 了 全 新 一 代 对 话 型 语言 模型 ChatGPT。 在 推出 短 短 五 
天 后 ， 该 公司 CEO 山姆 :阿尔 特 曼 通过 自己 的 社交 账户 宣布 ChatGPT 用 户 数量 突破 一 百 万 。 
两 个 月 后 ， 据 相关 报告 显示 ，ChatGPT 在 上 线 两 个 月 的 时 间 内 用 户 活跃 数 达 1 亿 ， 并 且 在 
上 线 第 二 个 月 内 平均 每 天 有 超过 1300 万 名 用 户 使 用 ChatGPT 智 东 西 ZeR0， 时 间 线 复 盘 
ChatGPT 爆 火 之 路 : 改变 互联 网 圈 的 两 个 月 [EBL]. [2023-03-06]. 
https://www. jiemian. com/article/8893975. html. 。ChatGPT 的 出 现 引发 了 社会 各 界 广泛 
的 讨论 ， 新 一 轮 的 人 工 智 能 热潮 由 此 被 引爆 。 

一 虽然 对 于 同类 型 产品 国内 显得 有 些 “ 慢 热 ”， 但 我 国 近 些 年 的 人 工 智 能 领域 却 发 展 迅 
速 。 早 在 2017 年 ， 国 务 院 就 在 颁布 的 《新 一 代 人 工 智 能 发 展 规划 》 中 提出 要 把 握 发 展 机 遇 ， 
大 力 发 展 人 工 智 能 领域 核心 技术 ; 2020 年 ， 教 育 部 在 《关于 公布 2019 年 度 普通 高 等 学 校 
本 科 专 业 备 案 和 审批 结果 的 通知 》 中 提 到 ， 在 2019 年 普通 高 等 院 校 的 本 科 专 业 设置 和 调整 
工作 中 ， 将 有 80 所 高 校 开 设 人 工 智 能 专业 ; 2021 年 ，《 中 华人 民 共 和 国 国 民 经 济 和 社会 
发 展 第 十 四 个 五 年 规划 和 2035 年 远景 目标 纲要 》 明 确 提出 ， 要 瞄准 人 工 智 能 等 前 沿 领 域 ， 

聚焦 人 工 智 能 算法 等 关键 领域 中 商 产 业 研 究 院 ，2022 年 中 国人 工 智 能 行业 最 新 政策 汇总 一 
览 ( 表 ) . [EB/OL]. [2023-03-06] 
https://www. askci. com/news/chanye/20220824/0921361966713. shtml. 。 现 实 中 ， 众 多 科 
技 、 互 联网 企业 如 百度 、 腾 讯 等 都 在 加 紧 研 发 甚至 是 已 经 研发 出 属于 自己 的 人 工 智 能 平台 
与 应 用 。 
与 人 工 智 能 同样 发 展 迅速 的 ， 是 数字 人 文 研 究 与 实践 。 数 字 人 文 作为 传统 人 文学 科 深 
度 应 用 数字 技术 之 后 产生 的 新 形态 ， 是 “人 文学 科 ” 的 延伸 和 发 展 ， 是 多 门 学 科 共 同 构成 
的 新 领域 中 商 产业 研究 院 ，2022 年 中 国人 工 智 能 行业 最 新 政策 汇总 一 览 〈 表 ) . [EB/0L]. 


1 本 文系 国家 社 科 基金 青年 项 目 “ 面 向 记忆 工程 的 数字 人 文 协同 创新 评价 体系 研究 ” (22CTQ041) 阶段 
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[2023-03-06]. https://www. askci. com/news/chanye/20220824/0921361966713. shtml. 。 
其 研究 对 象 已 从 最 初 的 电子 文本 扩展 至 超 文本 、 图 像 、 音 频 、 视 频 、 网 页 、 虚 拟 现实 、3D 
等 多 媒体 。 借 助人 工 智 能 、 大 数据 等 技术 能 够 进一步 实现 文本 处 理 、 知 识 探索 、 数 据 可 视 
化 等 王丽华 ,刘炜 , 刘 圣 婴 . 数字 人 文 的 理论 化 趋势 前 瞻 [ 刀 .中 国 图 书馆 学 报 ， 
2020, 46 (03) :17-23. ， 从 而 充实 和 拓展 人 文学 科 的 研究 领域 ， 推 动 研究 范式 的 转型 。 显 然 ， 
ChatGPT 作为 近期 人 工 智 能 领域 最 热门 和 功能 强大 的 智能 工具 代表 ， 将 为 数字 人 文 的 发 展 
带 来 新 的 机 遇 。 本 文 探讨 ChatGPT 的 基本 概念 、 关 键 技 术 ， 进 而 分 析 其 在 数字 人 文 领域 中 
的 应 用 前 景 和 现实 问题 ， 以 期 为 未 来 以 ChatGPT 为 代表 的 人 工 智能 工具 更 好 应 用 于 数字 人 
文 领域 提供 参考 与 借鉴 。 

2 ChatGPT 概念 解构 


虽然 ChatGPT 已 经 在 各 行业 掀起 话题 热潮 ， 但 作为 近期 出 现 的 新 工具 ， 想 对 其 进行 深 
入 研究 ， 就 必须 拨 开 熏 论 ， 从 其 本 身 概 念 、 支 撑 技 术 等 方面 重新 解构 。 男 外 ，ChatGPT 作 
为 人 工 智 能 领域 的 新 产品 ， 通 过 对 比 其 与 传统 的 数字 人 文 工 具 ， 能 更 好 得 展现 其 “新 ”在 
何 处 。 
2.1 ChatGPT 的 涵义 


近 段 时 间 ， 社 交 网 络 上 出 现 了 一 阵 晒 出 自己 与 ChatGPT 聊天 截图 的 风潮 ， 这 也 是 
ChatGPT 被 大 众 认 知 最 广 的 一 个 功能 一 一 智能 交互 对 话 。ChatGPT 全 称 为 “Chat Generative 
Pre-trained Transformer”， 即 为 “ 预 训练 聊天 生成 转换 器 ”， 是 一 种 基于 GPT-3.5 架构 的 大 
型 语言 模型 (Large Language Model, LLM) ， 该 模型 是 一 种 机 器 学 习 系统 ， 它 从 数据 中 自 
主 学 习 ， 在 对 大 量 文本 数据 集 进 行 训 练 后 ， 可 以 产生 复杂 且 《〈 类 ) 智能 的 写作 朱 本 军 , sete 
. 跨 界 与 融合 :全 球 视野 下 的 数字 人 文 首届 北京 大 学 “数字 人 文 论坛 ”会 议 综述 [J]]. 大 
学 图 书馆 学 报 , 2016, 34(05) :16-21. 。ChatGPT 主要 以 对 话 方 式 进行 交互 ， 支 持 回答 问题 、 
承认 错误 、 提 出 质疑 并 拒绝 不 适当 的 请 求 等 情境 DIS E V,BOLLEN J, ZUIDEMA W, et al. 
ChatGPT: five priorities for research Conversational AI is a game-changer for 
science. Here’ s how to respond[J]. Nature, 2023, 614:224-226. > ChatGPT 除了 最 基 
础 的 聊天 功能 ， 还 能 基于 对 话 的 形式 为 使 用 者 提供 文本 生成 、 代 码 生 成 、 文 本 翻译 等 功能 。 
ChatGPT 的 前 身 可 以 追溯 到 2020 年 的 GPT-3。 在 这 个 时 期 ，GPT-3 通过 在 拥有 3000 
亿 个 单词 的 语料库 内 对 拥有 1750 亿 参 数 的 模型 进行 训练 ， 在 这 种 大 规模 预 训练 下 获得 了 语 
言 生 成 、 世 界 知识 以 及 上 下 文学 习 三 个 重要 能 力 Brown T B,Mann B, Ryder N, et al. 
Language Models are Few-Shot Learners[C]//Proceedings of the 34th International 
Conference on Neural Information Processing Systems. Vancouver, BC, Canada. New 
York: ACM, 2020:1877 - 1901. 。 虽 然 以 现在 ChatGPT 的 标准 来 看 初版 GPT-3 并 不 智能 ， 但 
却 具 有 巨大 的 潜力 ， 并 直接 为 ChatGPT 的 诞生 奠定 了 基础 。 之 后 ， 通 过 对 GPT-3 进行 指令 
微调 Cinstruction tuning) 得 到 了 instruct-GPT 初始 版 本 OUYANG L, WU J, JIANG X, et al. 
Training Language Models to Follow Instructions with Human Feedback[EB/OL]. 
[2023-03-06]. https://arxiv. org/ abs/2203. 02155. ， 使 其 能 够 遵循 人 类 的 指令 ;再 通 
过 将 GitHub 上 采集 到 的 159GB 的 Python 代码 文件 作为 数据 集 重新 训练 GPT-3 得 到 Codex 
初始 版 本 Chen M, Tworek J, JUN H ,et al. Evaluating Large Language Models 
Trained on Code [EB/OL]. [2023-03-06]. ， 使 其 拥有 代码 理解 与 代码 生成 的 能 力 ， 再 通 
过 后 续 的 一 系列 的 不 同 版 本 的 指令 微调 以 及 基于 人 类 反馈 的 强化 学 习 ( Reinforcement 
Learning from Human Feedback, RLHF) “创造 ”出 现 如 今 的 ChatGPTFu, Y; Peng, H, 
Tushar K. How does GPT Obtain its Ability? Tracing Emergent Abilities of 
Language Models to their Sources [EB/OL]. [2023-03-06]. 
https://yaofu. notion. site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-— 
Abilities-of-Language—Models-to-their-Sources-b9a57acO0fcf74f30alab9e3e36faldcl. 
2.2 ChatGPT 的 支撑 技术 


ChatGPT 之 所 以 能 够 拥有 如 此 多 的 功能 且 能 够 出 色 地 实现 ， 离 不 开 其 中 的 关键 技术 与 
相关 架构 模型 的 支撑 。 


tt 


第 一 ， 在 整体 架构 上 ， 采 用 了 基于 Transformer 模型 构成 基本 系统 架构 。Transformer 模 
型 是 整个 GPT 系列 系统 的 基本 组 成 单元 ，GPT-1 4 12 & transformer, GPT-2 升级 至 48 层 ， 
而 GPT-3 有 96 层 ， 是 预 训练 模型 的 核心 网 络 。Transformer 是 一 种 神经 网 络 架 构 ， 能 帮助 
系统 分 析 文 本 、 图 像 和 音频 复杂 的 数据 类 型 。Transformer 模型 本 质 上 是 一 个 基于 多 头 注意 
力 机 制 的 模型 ， 通 过 注意 力 机 制 使 transformer 不 需要 再 额外 地 递归 或 循环 ， 具 有 递归 网 络 
与 卷 积 网 络 所 不 具有 的 并 行 计算 、 减 少 训练 时 间 的 优势 ， 再 加 上 本 身 模型 的 复杂 程度 ， 所 
以 相 比 于 主流 机 器 以 往 翻 译 所 使 用 基于 RNN 的 seq2seq 模型 框架 在 精度 与 性 能 上 都 要 高 出 
很 多 VASWNI A,SHAZEER N, PARMAR N ,et al.Attention is All You Need[EB/OL]. 
[2023-03-06]. https://arxiv. org/abs/1706. 03762. ， 也 赋予 了 ChatGPT 不 同 于 过 去 同 
类 型 模型 更 大 的 能 

第 二 ， 在 算法 层 上 ， 采 用 了 基于 人 类 反馈 的 强化 学 习 (RLHF) 。 它 可 以 分 成 三 个 核 
‘OPR: 第 一 个 步 又 是 预 训 练 一 个 语言 模型 (Language Model, LM) ， 再 通过 大 量 的 语 料 
去 训练 出 基础 模型 ， 在 这 一 步骤 Open AI 选择 了 GPT-3。 男 外 ， 在 这 一 步 Open AI 使 用 了 额 
外 的 条 件 或 文本 对 GPT-3 进行 微调 。 从 第 二 步 开 始 ， 整 个 RLHF 与 以 往 范式 形成 明显 区 别 ， 
在 这 一 步 需 要 训练 一 个 奖励 模型 (Reward Model，RM) 。RM 接收 一 系列 的 文本 之 后 输出 
一 个 数值 标量 奖励 ， 以 期 从 人 类 视角 下 定量 评判 模型 输出 的 回答 的 质量 。 最 后 ， 基 于 强化 
学 习 去 微调 语言 模型 。RLHF 中 因为 近 端 策略 优化 〈Proximal Policy Optimization, PPO) 
算法 存在 时 间 较 长 ， 且 相关 原理 指南 较为 丰富 ， 因 此 成 为 了 最 佳 的 选择 去 微调 初始 语言 模 
型 的 参数 LAMBERT N, CASTRICATO L, WERRA L 0，et al. Illustrating Reinforcement 
Learning from Human Feedback (RLHF) [EB/OL]. [2023-03-06]. 
https://huggingface. co/blog/rlhf. #4 C49. 【科普 向 】Chat GPT 背后 的 技术 : 什么 是 
RLHF( A 类 R 人 馈 强 化 学 习 ) ? [EB/OL]. [2023-03- 
06]. https://www. bilibili. com/read/cv22006067. 。 

第 三 ， 在 算 力 层 上 ，GPT-3.5 (ChatGPT 使 用 的 模型 在 Azure AI 超级 计算 基础 设施 上 
进 行 T 训 | 练 Introducing ChatGPT. [EB/OL]. [2023-03-6]. 
https://openai. com/blog/chatgpt?ref=the-writesonic-blog—making-content-your- 
superpower. o ChatGPT 能 够 达到 高 度 智 能 化 的 背后 ， 仅 靠 一 个 庞大 模型 与 强大 算法 是 不 够 
的 ， 还 需要 庞大 算 力 支撑 。 早 在 2019 年 ， 微 软 就 已 经 向 Open AI 投资， 双方 达成 密切 合作 
由 微软 开发 的 云 计算 服务 Azure AI 成 为 了 Open AI 的 独家 云 供应 商 ， 为 Open AI 提供 强大 
的 算 力 支 持 与 资金 新 浪 科 技 ， 微软 向 0penAI 投资 10 亿美 元 在 Azure 平 台 上 开发 AI 技术 
[EB/OL]. [2023-03-06]. . ChatGPT 总 算 力 消耗 约 为 3640 PF-days， 即 假设 每 秒 进行 一 干 
万 亿 次 计算 ， 则 需要 持续 运行 3640 天 。 这 样 时 间 跨 度 大 、 持 续 时 间 久 的 GPU 集群 训练 ， 
对 网 络 互 联 底座 的 各 方面 都 要 求 严 若 ， 但 同时 Open AI 的 模型 在 微软 Azure 上 的 训练 也 可 
以 实现 对 于 微软 Azure 的 AI 能 力 的 提升 。 

2.3 ChatGPT 与 传统 数字 人 文 工 具 的 比较 


数字 人 文 的 研究 方法 其 实 是 “基于 数据 的 研究 ”刘炜 , EE. 数字 人 文 的 技术 体系 与 理 
论 结构 探讨 []]. 中 国 图 书馆 学 报 , 2017, 43 (05) :32-41. DOI: 10. 13530/j. cnki. jlis. 170020. , 
配合 传统 数字 人 文 的 研究 工具 进行 数据 检索 、 星 现 和 对 数据 进行 量化 结构 分 析 ， 常 表现 为 
将 某 一 研究 对 象 或 材料 进行 数字 化 或 统计 收集 相关 数据 ， 再 对 数字 化 材料 与 数据 进行 系统 
性 分 析 或 通过 可 视 化 技术 呈现 。 学 者 在 使 用 这 些 工具 与 方法 进行 研究 时 ， 需 要 投入 大 量 的 
精力 并 且 过 程 往往 复杂 枯燥 。 例 如 ， 学 者 常常 需要 改变 检索 条 件 与 构建 不 同 的 检索 式 才能 
检索 到 较为 完全 的 数据 与 内 容 ; 历史 材料 数字 化 后 ， 和 常常 通过 与 语言 、 历 史 和 考古 等 领域 
学 者 联合 进行 语 料 转换 与 内 容 提取 ; 在 对 统计 到 的 数据 进行 定量 分 析 前 ， 传 统 数字 人 文 工 
有 具 难 以 精确 旬 查 质量 不 好 甚至 不 合格 的 数据 ， 只 能 通过 预先 设 定好 的 判定 模式 对 数据 进行 
简单 过 滤 ， 且 往往 更 依赖 于 更 费 精 力 的 人 工 过 滤 。 在 数字 人 文 领 域 的 研究 中 还 有 更 多 类 似 
的 应 用 场景 ， 因 此 ， 传 统 数字 人 文 工 具 在 一 定 程 度 上 使 人 文学 者 只 能 对 极 少 的 文本 进行 控 
据 ， 限 制 了 研究 的 深度 与 广度 。 
将 以 ChatGPT 为 代表 的 人 工 智 能 工具 引入 数字 人 文 领 域 ， 将 会 为 后 者 的 发 展 带 来 颠覆 
性 改变 。 实 际 上 ， 在 ChatGPT 问世 之 前 ， 有 许多 相关 的 技术 已 经 在 数字 人 文 领域 做 出 尝试 ， 
如 计算 机 视觉 领域 内 的 OCR 文字 识别 技术 对 于 古籍 图 像 文 字 识 别 的 应 用 、 上 古籍 文 本 处 理 等 。 
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以 人 工 智 能 古籍 图 像 处 理 


为 例 ， 其 机 制 与 ChatGPT 类 似 ， 通 过 人 工 智 能 去 简化 古籍 的 影像 


资料 ， 同 时 参考 过 去 人 工 标注 的 结果 ， 进 而 辨认 该 影像 是 何 种 类 型 ， 


可 能 性 最 高 的 那 一 项 。 虽 
le]. WY Bs | ChatGPT、 人 工 


03-07]. « 


然 相 关 算 法 本 身 己 较 成 熟 ， 但 对 于 古籍 图 像 的 应 用 还 较 少 澎 激 新 
智能 与 数字 人 文 : 传统 学 问 的 科技 未 来 ? [EB/0L]. [2023- 


了 通过 概率 比 对 选择 


ChatGPT 不 仅 与 数字 人 文 非 常 契 合 ， 而 且 相 较 于 一 些 传统 数字 人 文 工 具 ， 更 加 便利 、 


先进 与 智慧 。 首 先 ， 数 字 人 文通 过 对 于 文本 、 数 据 、 材 料 以 及 内 容 进 行 分 析 研 究 ， 而 


ChatGPT 作为 一 个 生成 式 的 预 训练 语言 模型 ， 能 够 为 数字 人 文 的 研究 内 容 提供 原始 材料 、 


内 容 分 析 与 辅助 研究 等 。 


究 人 员 甚 至 是 普通 人 都 能 够 快速 获得 想 要 的 服务 ， 能 够 被 迅速 应 用 了 


其 次 ， 相 较 于 一 些 传 统 的 数字 人 文 工 具 ， ChatGPT 能 够 让 每 个 研 


数字 人 文 领域 研究 ; 


将 数字 人 文 对 于 内 容 的 分 析 研 究 从 表面 信息 组 织 进 化 到 语义 内 容 组 织 ， 将 信息 检索 模式 从 


用 户 单 边 检索 转变 为 交互 式 知识 问答 以 及 提高 研究 分 析 效 率 等 中 
《ChatGPT 对 文献 情报 工作 的 影响 》 而 
http://www. las. cas. cn/zhxw/202302/ 


3 ChatGPT 赋 能 数字 人 文 的 应 用 前 景 


ChatGPT 在 互联 网 、 计 算 机 、 办 公 以 及 服务 等 多 个 领域 都 即将 或 已 经 落地 应 用 ， 为 各 
部 分 学 者 也 对 ChatGPT 在 信息 资源 管理 


领域 注入 新 生命 。 


国 科学 院 文献 情报 中 心 . 
究 报告 〈 简 版 ) 公开 发 布 [EB/0L]. [2023-03-07]. 
t20230228 6685890. html. ， 仅 以 文献 学 视角 来 看 ， 
ChatGPT 就 打破 了 传统 文献 需要 依靠 人 员 去 处 理 的 模式 ， 它 能 够 有 效 地 建立 文本 之 间 的 深 
层次 关系 ， 对 自然 语言 进行 深层 次 处 理 ， 包 括 但 不 限于 自动 标点 、 命 名 实体 识别 、 命 名 实 
体 消 歧 、 命 名 实体 链接 、 相 似 文 本 的 判定 等 ， 大 大 减少 了 研究 人 员 在 这 类 繁 见 任务 上 的 精 
力 消耗 ， 助 推 数 字 人 文 的 研究 。 


https://tech. sina. com. cn/it/2019-07-22/doc-ihytcerm5517562. shtml. 、 图 书馆 智能 知 


识 服 务 赵 瑞雪 , 黄 永 文 , BH 
示 与 思考 [J/0L]. 农业 图 


1248. 23-0116. 、 科 研 管理 


[J/OL]. 图 


EP X, 张 


馆 论 坛 


ERK, 董 文 佳 , 鲜 国 建 , 孙 坦 . ChatGPT 对 图 书馆 智能 知识 服务 的 启 
书 情报 学 报 :1-10[2023-03-06]. http://j.cnki. issn1002- 
IRER. ChatGPT 给 科研 工作 者 带 来 的 机 遇 与 挑战 


:1-15[2023-03- 


06]. http://kns. cnki. net/kems/detail/44. 1306. g2. 20230223. 2231. 002. html 等 领域 的 
应 用 进行 了 初步 的 研究 和 应 用 展望 。 而 ChatGPT 在 数字 人 文 领域 的 研究 和 应 用 同样 需要 进 
行 探 索 ， 它 能 够 为 数字 人 文 发 展 提供 新 的 动力 ， 改 变数 字 人 文 领域 生态 ， 具 有 多 种 应 用 前 
Ko 具体 来 看 ，ChatGPT 赋 能 数字 人 文 的 应 用 前 景 有 以 下 几 个 方面 : 
3.1 智能 研究 助理 : 辅助 数字 人 文学 者 知识 生产 


ChatGPT 可 以 在 知识 生产 


领域 为 数字 人 文学 者 提供 定 


判 化 服务 ， 充 当 每 个 研究 人 员 的 
私人 研究 助理 。 首 先 ，ChatGPT 对 于 程序 设计 与 规范 方面 的 任务 可 以 较为 准确 地 完成 ， 因 


而 可 以 辅助 学 者 进行 数字 人 文 相 关 资 源 库 的 程序 设计 等 。 其 次 ，ChatGPT 可 以 对 学 者 的 知 


识 生产 从 设想 到 验证 都 能 提出 分 步 指示 与 初步 建议 ， 并 辅 


助 他 们 完成 如 文章 撰写 、 内 容 校 


验 等 大 量 重复 性 的 工作 ， 提 高 学 者 提高 知识 生产 效率 。 另 外 ，ChatGPT 不 仅 可 以 是 建议 者 ， 
更 可 以 转化 为 知识 生产 者 。 研 究 人 员 可 以 通过 对 话 的 形式 将 自己 的 想法 与 研究 内 容 、 目 标 
等 辅助 性 信息 传递 给 ChatGPT, ChatGPT 通过 对 这 些 信息 的 分 析 可 以 为 学 者 提供 一 个 建设 


性 计划 、 方 案 ， 虽 然 这 些 计 划 与 方案 是 否 具 有 落地 意义 需要 后 续 验 说 


打开 思路 并 助 推 后 续 研 究 与 知识 生产 则 是 无 疑 的 。 
3.2 全 量 文本 分 析 : 助力 数字 人 文 量化 方法 分 析 


FE， 但 其 能 为 研究 人 员 


ChatGPT 可 以 协助 进行 全 量 文献 基 耐 


实现 全 量 文献 基础 上 的 友 


于 工具 不 够 智能 化 等 原因 


上 上 的 研究 与 分 析 。 数 字 人 文 的 方法 在 理论 上 可 以 
f 究 ， 但 在 现实 中 ， 传 统 数字 人 文 方法 在 进行 量化 方法 分 析 时 ， 由 
的 限制 ， 研 究 人 员 往 往 会 处 于 “信息 草 房 ” 张 表 , EER, FEF 


等 . 同 质 化 困境 : 信息 草 房 概念 解析 与 理论 框架 构建 [J/O0L]. 中 国 图 书馆 学 报 :1-20[2023- 
03-05]. http://kns. cnki. net/kcms/detail/11. 2746. G2. 20221108. 1326. 002. html. F, JE 


法 判断 自己 所 掌握 与 收集 的 数据 是 否 准 确 与 完全 ， 


因此 传统 数字 人 文 领域 学 者 的 研究 更 多 


的 局 限 在 某 一 片段 或 某 一 部 分 进行 量化 分 析 ， 无 法 充分 展示 数字 人 文 的 长 处 。 而 ChatGPT 


对 量化 的 分 析 与 研究 ， 是 一 个 很 好 的 工具 。 仅 以 中 文 古 籍 为 例 ， 全 部 中 文 古籍 总 量 已 经 回 
定 ， 已 经 有 其 极限 。 而 ChatGPT 对 于 这 类 文献 的 处 理 具 有 很 好 的 作用 ， 只 需要 将 全 部 文献 
“PUN” 2 ChatGPT， 它 就 能 迅速 精通 该 领域 ， 为 研究 者 提供 服务 。 因 此 ，ChatGPT 可 以 
辅助 学 者 完成 复杂 人 文 研究 过 程 中 的 文本 整理 、 资 料 收集 、 数 据 分 析 、 内 容 摘 要 和 观点 提 
炼 等 工作 ， 让 研究 者 能 够 在 短 时 间 内 了 解 某 一 研究 模块 的 文献 数量 、 重 点 内 容 与 相关 资料 
等 ， 为 研究 者 进行 后 续 研 究 分 析 提 供 帮 助 。 

3.3 碎片 知识 整合 ,实现 数字 人 文智 能 检索 服务 


数字 人 文学 科 的 特殊 性 ， 决 定 了 在 数字 人 文 领域 的 研究 可 能 会 涉及 艺术 、 历 史 、 人 文 
与 社会 等 多 个 学 科 领 域 的 知识 。 而 就 个 体 研究 者 或 研究 团队 而 言 ， 其 学 科研 究 方 向 与 知识 
储备 通常 单一 ， 在 研究 中 对 于 其 他 领域 的 知识 往往 不 了 解 。 而 ChatGPT 则 可 以 根据 问题 整 
合 碎片 化 知识 ， 帮 助 研究 者 更 好 地 获取 自己 了 解 较 少 的 领域 相关 知识 ， 有 利于 数字 人 文 领 
域 的 知识 生产 和 共享 ， 提 高 效率 、 优 化 方式 ， 开 展 数字 人 文 研究 与 跨 学 科研 究 ， 实 现 多 学 
科 交 叉 融 合 。 另 外 ，ChatGPT 不 仅 能 将 被 动 地 为 研究 者 搜集 知识 与 内 容 ， 当 研究 者 所 询问 
的 问题 涉及 其 他 领域 的 知识 而 没有 在 问题 中 涉及 时 ，ChatGPT 也 可 以 通过 回答 的 形式 提醒 
研究 者 该 问题 所 具有 的 跨 学 科 属 性 ， 并 以 此 为 基础 向 人 们 提供 更 加 丰富 和 多 元 的 知识 内 容 
为 研究 者 带 来 新 思考 与 新 闻 题 ， 有 助 于 实现 人 文 研究 从 “学 科 孤 岛 ” 到 “知识 共同 体 ” 的 
TT 转变 。 同 时 ， 还 可 用 于 学 术 交 流 与 合作 中 的 共享 平台 的 搭建 、 学 术 知 识 图 谱 的 构建 、 跨 领 
a 域 资 源 的 共享 和 知识 交流 等 。 


3.4 多 种 语言 翻译 :打破 数字 人 文 资源 语种 壁 多 


在 数字 人 文 跨 学 科 领 域 的 研究 中 ， 对 不 同 语言 文献 的 内 容 翻译 是 一 个 无 法 回避 的 工作 。 
而 作为 一 种 通用 型 机 器 翻译 模型 ，ChatGPT 能 够 协助 研究 者 处 理 各 方面 的 语 料 ， 并 能 够 对 
内 容 进 行 转换 ， 通 过 对 不 同 语言 文本 的 理解 和 生成 ， 实 现 自动 翻译 。 

首先 ， 由 于 ChatGPT 在 问世 前 经 过 多 次 基于 人 类 反馈 的 强化 学 习 ， 并 加 之 后 续 的 指令 
微调 ， 使 其 回答 具有 较 好 的 逻辑 性 ， 在 保证 翻译 内 容 尽 量 完整 的 同时 不 丢失 流畅 度 。 其 次 
ChatGPT 可 以 实现 对 同一 内 容 同时 进行 多 语种 实时 翻译 ， 快 速 实现 知识 与 资源 的 语言 转换 ， 
大 大 加 快 了 翻译 的 效率 。 再 次 ，ChatGPT 的 翻译 不 仅 是 语种 的 转换 ， 更 可 以 实现 语 料 文本 
的 转换 。 在 数字 人 文 领域 ， 不 同学 科 的 交叉 融合 的 同时 ， 对 不 同学 科 的 专业 语言 也 可 能 相 
互 难以 理解 ， 利 用 ChatGPT 可 以 实现 不 同 语 料 之 间 的 转换 ， 将 某 些 领域 相对 专业 、 生 个 的 
术语 转化 为 更 通俗 易 懂 的 语言 ， 方 便 不 同学 科 领 域 的 学 者 进行 跨 学 科研 究 。 最 后 ， 
ChatGPT 不 同 于 传统 翻译 软件 的 单 次 翻译 ，ChatGPT 的 本 质 是 一 个 对 话机 器 人 ， 相 比 于 传 
统 翻 译 模 式 需 要 人 工 进行 原文 比 对 进行 纠 错 ， 研 究 人 员 可 以 通过 在 与 其 对 话 中 对 翻译 不 合 
适 的 地 方 进 行 更 精细 要 求 与 重复 提问 ， 以 获得 更 好 的 输出 内 容 。 总 之 ，ChatGPT 的 出 现 能 
~ 够 打破 数字 人 文 资源 语种 壁垒 ， 为 跨 语言 的 知识 传递 与 共享 提供 了 新 工具 ， 有 利于 数字 人 
文 领域 内 不 同学 界 、 不 同 国家 与 地 区 学 者 之 间 的 知识 交流 与 资源 共享 。 
4 ChatGPT 赋 能 数字 人 文 的 现实 问题 


ChatGPT 的 出 现 无 疑 将 赋 能 数字 人 文 领域 的 发 展 与 进步 ， 但 同时 其 本 身 不 足 和 由 其 带 
来 的 相关 现实 问题 也 需要 关注 。 只 有 密切 关注 ChatGPT 的 现实 问题 ， 并 在 日 后 加 以 改进 ， 
才能 让 其 更 好 地 服务 于 数字 人 文 。 

4.1 语料库 数据 丰富 度 和 动态 更 新 能 力 有 待 提高 


ChatGPT 无 论 多 么 智能 ， 其 本 质 还 是 一 个 预 训 练 语 言 模型 ， 即 ChatGPT 需要 提前 由 训 
练 者 提供 大 量 的 语 料 ， 一 般 包 括 涵 盖 多 语言 、 多 领域 的 论文 、 书 籍 、 报 刊 等 ， 并 根据 这 些 
语 料 生成 大 部 分 知识 库 ， 对 话 过 程 中 主要 依赖 这 些 知 识 库 去 回答 问题 。 基 于 此 ， 一 方面 ， 
尽管 ChatGPT 在 大 多 数 对 话 中 表现 出 色 ， 但 对 于 专业 度 极 高 的 领域 ， 它 的 回答 会 出 现 模 棱 
两 可 、 混 乱 错误 的 现象 ， 甚 至 会 出 现 面 对 质疑 后 给 出 另 一 个 答案 的 现象 北京 市 京师 珠海 律 
师 事务 所 .专业 文章 : ChatGPT 火 出 圈 ? 是 否 能 够 取代 律师 ? [EB/OL]. [2023-03-6]. . i& 
就 暴露 出 其 语料库 丰富 度 可 能 并 不 足以 覆盖 所 有 和 领域 知识 的 问题 ， 而 这 对 于 数字 人 文 这 样 
一 个 多 学 科 交 叉 领 域 可 能 是 不 足 的 ， 可 能 无 法 完全 满足 数字 人 文 领域 研究 的 需要 。 另 一 方 


面 ， 由 于 资金 、 设 施 等 多 种 因素 影响 ，ChatGPT 的 预 训练 当前 版 本 的 知识 内 容 仅 能 包含 
2021 年 及 之 前 的 内 容 ， 如 果 不 能 持续 地 对 其 数据 来 源 进行 动态 更 新 ， 那 么 仅 以 其 现 有 的 知 
识 库 与 语言 能 力 可 能 落后 于 知识 生产 的 需要 ， 在 面 对 一 些 时 效 性 很 强 的 问题 时 ， 表 现 可 能 
不 佳 。 

4.2 生成 内 容 的 算法 伦理 和 知识 版 权 问题 有 待 厘 清 


ChatGPT 生成 内 容 的 算法 伦理 不 容 忽 视 。 作 为 一 个 对 话 模 型 ，ChatGPT 以 对 话 形式 输 

出 内 容 ， 也 因此 可 能 会 出 现 相 关 的 问题 。 作 为 一 个 机 器 模型 ， 它 无 法 通过 自身 去 鉴别 知识 
库 中 内 容 的 准确 性 ， 并 且 对 于 如 此 体 量 的 庞大 数据 集 ， 不 可 能 实现 全 部 人 工 筷 选 。 尽 管 在 
初期 会 有 人 工 介 入 ， 但 这 也 会 因为 人 员 的 信息 素养 与 专业 能 力 而 无 法 保证 完全 正确 ， 所 以 

它 对 于 一 个 问题 的 回答 也 难以 保证 完全 准确 。 当 它 遇 到 现 有 知识 库 中 无 法 直接 回答 的 问题 

时 ， 很 可 能 为 了 语法 的 准确 与 流畅 而 选择 拼凑 、 删 改 语 句 ， 导 致 生 成 的 内 容 意义 发 生变 形 

正确 率 下 降 。 另 外 ， 在 面 对 涉 及 不 同 地 区 文化 差异 、 伦 理 道德 等 问题 时 ， ChatGPT 难以 分 

析出 其 中 深层 次 的 差异 与 意义 ， 所 以 产 出 的 内 容 不 免 会 违反 某 些 地 区 的 文化 与 社会 规章 ， 

也 因此 会 在 面 对 不 同 地 区 同一 对 象 的 不 同 内 容 《〈 如 文化 、 法 律 等 ) 时 ， 出 现 将 不 同 内 容 杂 

糠 在 一 起 ， 最 后 产 出 的 内 容 看 似 正 确 其 实 毫 无 意义 。 因 为 其 本 身 不 能 准确 识别 内 在 意义 的 

不 同 ， 只 是 一 味 为 了 内 容 尽 可 能 涉及 每 个 对 象 。 

二 ChatGPT 生成 内 容 的 版 权 问题 同样 需要 关注 。ChatGPT 在 学 术 圈 之 所 以 能 引起 这 么 高 
一 的 讨论 度 ， 原 因 在 于 它 被 一 部 分 人 滥用 ， 利 用 其 超 高 内 容 生 成 能 力 去 完成 作业 、 论 文 等 ， 
在 这 样 的 情况 下 ChatGPT 成 为 助长 学 术 不 端 风气 的 工具 。 同 样 ， 其 所 生成 的 内 容 也 可 能 3 
不 是 完全 原创 ， 根 据 语 料 库 所 生成 的 内 容 可 能 是 某 位 学 者 已 经 出 版 的 内 容 。ChatGPT 在 内 
容 生成 中 的 版 权 风 险 主 要 有 两 个 方面 : 一 方面 是 没有 获得 在 先 作 品 权 利 人 的 授权 ， 以 及 在 
行使 著作 权时 可 能 侵犯 原作 品 的 著作 权 ， 男 一 方面 聊天 机 器 人 在 不 同 目的 与 不 同 场 景 下 的 
使 用 ， 如 聊天 机 器 人 生成 的 内 容 进行 再 出 版 从 立 先 , 李 泳 霖 . 聊天 机 器 人 生成 内 容 的 版 权 风 
险 及 其 治理 一 一 以 ChatGPT 的 应 用 场景 为 视角 [J/0L]l. 中 国 出 版 :1-6[2023-03- 
05]. http://kns. cnki. net/kcms/detail/11. 2807. G2. 20230221. 1908. 002. html. 。 对 于 使 
用 者 ， 由 于 该 内 容 可 能 来 源 于 不 同 国 家 与 地 区 的 数据 集 ， 由 于 检验 工具 与 检索 工具 的 限制 
致使 使 用 者 难以 检验 内 容 的 原创 性 ， 使 用 者 也 许 将 “被 迫 ” 陷 入 版 权 争 议 ， 而 对 于 原创 者 
自己 的 知识 版 权 是 否 通 过 ChatGPT 被 侵害 也 难以 得 知 。 故 而 在 知识 版 权 问 题 上 ，ChatGPT 
还 有 很 长 的 路 需要 走 。 
4.3 人 文 知识 的 准确 性 和 知识 创新 能 力 有 待 加 强 


= ChatGPT 通过 对 现 阶 段 人 类 的 知识 结构 进行 学 习 构 建 出 自己 的 知识 体系 ， 从 而 具备 了 
< 根据 问题 智能 生成 回答 的 能 力 。 但 ChatGPT 的 智能 ， 只 是 基于 其 强大 的 算 力 ， 使 其 能 够 快 
Dd 速 定位 ， 同 时 基于 人 类 反馈 的 相关 算法 ， 使 其 能 够 将 相关 的 知识 以 一 定 的 逻辑 性 通过 自然 
语言 输出 。ChatGPT 擅长 的 并 不 是 知识 的 生成 而 是 知识 的 整合 ， 它 的 知识 来 源 都 是 已 知 和 
己 有 的 知识 ， 所 以 ChatGPT 很 容易 处 理 如 应 用 文 、 通 知 等 极 强 范 式 性 的 内 容 以 及 对 知识 进 
行 梳理 、 总 结 等 。 但 这 些 大 多 并 不 能 称 为 知识 创新 ， 只 是 对 于 现 有 知识 的 再 加 工 ， 
ChatGPT 的 知识 创新 能 力 还 有 竺 改善 ， 这 也 依赖 其 日 后 算法 的 进化 。 另 外 ，ChatGPT 在 服 
务 数字 人 文 领域 研究 中 有 一 个 明显 的 短 板 ， 即 人 文 知识 储备 量 不 足 且 不 够 准确 。 人 文 知识 
的 特点 是 多 与 杂 ， 内 容 涵 盖 文 学 、 历 史 、 艺 术 、 社 会 等 多 领域 ， 且 时 间 跨 度 大 ， 特 别 是 每 
个 国家 与 地 区 、 甚 至 是 每 个 学 科 领 域 的 人 文 知 识 都 有 其 独特 性 。 可 以 说 ， 人 文 知识 伴随 人 
类 的 发 展 不 断 产 生 ， 内 容 不 仅 庞 大 且 几 乎 没有 尽头 ， 为 了 应 对 这 类 问题 ， 则 需要 ChatGPT 
在 更 足 量 以 及 更 及 时 的 更 新 语料库 训练 后 才能 勉强 胜任 。 
4.4 多 语种 输出 在 结果 精准 性 上 的 差异 有 待 改善 


每 种 语言 在 特定 的 语 境 、 文 化 背景 下 都 有 更 深层 次 的 含义 ， 而 ChatGPT 作为 一 个 预 训 
练 模型 ， 在 对 不 同 语种 内 容 转换 准确 性 方面 还 需要 改善 。 以 中 文 为 例 ，Open AI 的 语料库 
里 ， 中 文 语 料 只 占 5% 凤 凰 网 . 港 科大 副 校 长 : AI 语料库 里 中 文 只 有 5%， 如 何 打造 ChatGPT 
中 国 版 ? [EB/OL]. [2023-03-6]. ， 因 而 ChatGPT 在 中 文 语 料 训练 上 的 缺陷 ， 使 得 它 在 中 
文 知 识 上 可 能 会 存在 盲区 。 将 其 他 语言 翻译 为 中 文 ， 难 免 会 出 现 语言 杂 粹 、 表 达 不 准确 其 


至 错误 的 现象 。 再 进一步 以 风格 独特 的 中 国 古 文 为 例 ，ChatGPT 在 对 《大 唐 开 元 礼 》 进 行 
点 校 时 ， 其 版 本 与 古文 专家 点 校 版 本 出 入 较 大 
https://news. ifeng. com/c/8Ndii5Q6Eek. ， 转 换 为 现代 汉语 时 ， 对 一 些 简单 的 文言 文 可 以 
进行 适当 翻译 ， 当 遇 到 仅 以 现代 语言 难以 解释 其 意思 的 词 或 句子 时 ， 它 就 会 按照 自己 的 理 
解 去 翻译 ， 如 “ 门 者 难 之 ”ChatGPT 翻译 成 “出 门 时 很 困难 ”， 而 该 句 的 实际 意思 为 “ 守 
城 的 士兵 为 难 他 ” 王 上 ， 端 水 大 师 ChatGPT 在 数理 化 题目 面前 栽 了 …… [EB/OL]. [2023-03- 
6l. 。 当 然 这 样 的 情况 在 其 他 语种 转换 时 也 可 能 会 发 生 。ChatGPT 在 多 种 翻译 场景 下 的 翻 
译 能 力 目前 还 比 不 上 Google. DeepL 等 翻译 软件 JIAO W, WANG W,HUANG J, et al. Is 
ChatGPT A Good Translator? A a Study [EB/OL]. [2023-03-6]. ， 它 的 优势 
是 实时 性 、 灵 活性 等 。ChatGPT 在 一 些 语法 逻辑 性 较 强 的 语言 以 及 无 深意 的 文本 上 表现 更 
a e 


5 结语 与 展望 


ChatGPT 的 出 现 ， 将 人 们 与 人 工 智 能 之 间 的 距离 缩短 ， 也 让 人 们 看 到 人 工 智 能 独特 的 
优势 。ChatGPT 为 数字 人 文 领 域 研 究 提 供 了 多 一 种 工具 选择 ， 为 数字 人 文 注入 了 新 的 活力 
合理 运用 将 帮助 领域 内 学 者 完成 更 多 、 更 好 的 分 析 与 研究 。 同 时 我 们 也 应 看 到 ChatGPT 存 
在 的 现实 问题 ， 唯 有 直面 这 些 问 题 ， 我 们 才能 更 充分 认识 ChatGPT 的 适用 场景 、 相 关 风 险 
等 ， 帮 助 领 域内 学 者 更 有 效 地 使 用 它 。 相 信 未 来 ChatGPT 将 进一步 发 展 ， 在 以 它 为 代表 的 
更 多 人 工 智能 具 的 加 持 下 ， 数 字 人 文 发 展 有 更 广阔 的 发 展 空间 。 
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ChatGPT empowers digital humanities: concept deconstruction, application prospect and 
practical problems 
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Abstract: [Purpose/Significance |ChatGPT is one of the most popular artificial intelligence 
technologies at present, which shows its application potential in many fields. Digital humanities 
are closely related to emerging technologies such as Artificial intelligence and Big data. The 
appearance of ChatGPT is expected to empower digital humanities and provide new ideas and 
directions for the future development of digital humanities. [Method/Process] By analyzing the 
meaning and supporting technology of ChatGPT and comparing with traditional digital humanities 
tools, the application prospect of ChatGPT in digital humanities field and the existing practical 
problems were summarized. [Results/Conclusion ]ChatGPT has broad prospects in digital 


humanities, and can be used as an intelligent research assistant, full text analysis, fragment 

knowledge integration, multilingual translation and other applications. However, some practical 

problems need to be further solved, such as data richness and dynamic updating ability of corpus, 

algorithmic ethics and intellectual copyright issues of generated content, accuracy and innovation 

ability of humanistic knowledge, and differences in results accuracy of multilingual output. 

Keywords: ChatGPT Digital Humanities Artificial Intelligence Generated Content Technology 
Conversational Language Model 


